DCASE 2024 Task 4: Sound Event Detection with Heterogeneous Data and Missing Labels
6節に説明がある
以前のベースラインを元に作っている
以下の特徴を持つCNNエンコーダに続いて
バッチ正則化
ゲート付き線形ユニット, GLU
ドロップアウト
7層の畳み込み層
biGRU層がある
ベースライン2022を見るか
BEATsの特徴量を加工してCNNの特徴量とconcat 平均プーリングでシーケンス長を揃え
アテンションプーリングでクリップやフレーム単位用の出力を得る?
特殊な学習戦略があるらしい
マスキングするとかなんとか
マイナーな変化と言っている部分が該当
この辺りは後で良い